标签【8_课程学习-强化学习(David Silver)】

1、简介 1.1、PolicyBased方法优劣优势：更好的收敛特性在高维或者连续的action空间里面有效可以学习随机策略劣势：收敛到局部最优，而非全局最优 policy ...